سیستم شناسایی موجودیت های نامدار در متون فارسی

thesis
abstract

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش صورت می گیرد. در این پژوهش نیز با توجه به اینکه کارهای بسیار کمی در خصوص شناسایی موجودیت های نامدار در زبان فارسی صورت گرفته است، سیستمی پیشنهاد شده است که از هر دو روش مبتنی بر قانون(استفاده از فهرست ها، وندها و الگوها) و مبتنی بر یادگیری ماشین(در اینجا مدل مخفی مارکوف) برای شناسایی موجودیت ها استفاده می کند و در نهایت نتایج حاصل از این دو روش را ترکیب می نماید. با توجه به اینکه موجودیت های پایه ای که از زمان پیدایش این مفهوم مورد توجّه قرار گرفته اند، شامل اسامی اشخاص، مکان ها و سازمان ها می باشند، در سیستم پیشنهادی نیز روی این سه نوع موجودیت تمرکز شده است. البتّه در کنار این موجودیت های پایه ای، می توان به موجودیت هایی مانند زمان ها، تاریخ ها و مقادیر کمّی نیز پرداخت که خارج از حیط? این پژوهش می باشد. براساس ارزیابی هایی که با استفاده از مجموعه ای از داده های تست از نوع متن خبری شامل 32606 نشانه صورت گرفته است، سیستم ارائه شده در روش مبتنی بر قانونِ خود که تأکید اصلی این پژوهش می باشد، قادر خواهد بود موجودیت های نامدار را با دقّت(نسبت موجودیت های صحیح یافت شده بر کل موجودیت های یافت شده) حدود 95% و با فراخوانی(نسبت موجودیت های صحیح یافت شده به کل موجودیت ها) حدود 80% شناسایی نماید. این نتایج می تواند موجب بهبود کارایی در سیستم هایی مانند سیستم های پاسخگویی موتورهای جستجو که از نتایج حاصل از سیستم های شناسایی موجودیت های نامدار استفاده می کنند، بشود. شایان ذکر است که عدم وجود لیست های موجودیتی نسبتاً کامل و دشواری تعیین محدود? موجودیت ها از عوامل اصلی افت کارایی سیستم می باشد.

similar resources

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

full text

بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

Named entity recognition is a process in which the people’s names, name of places (cities, countries, seas, etc.) and organizations (public and private companies, international institutions, etc.), date, currency and percentages in a text are identified. Named entity recognition plays an important role in many NLP tasks such as semantic role labeling, question answering, summarization, machine ...

full text

سیستم شناسایی و طبقه‌بندی موجودیت‌های اسمی در متون زبان فارسی بر پایه شبکه عصبی

Named Entity Recognition (NER) is a fundamental task in natural language processing and also known as a subset of information extraction. We seek to locate and classify named entities in text into predefined categories such as the names of persons, organizations, locations, expressions of times, etc. Named Entity Recognition for English texts has been researched widely for the past years, howev...

full text

شناسایی موجودیت های همانند در وب داده

وب داده به منظور ایجاد وب قابل فهم برای ماشین ها معرفی شده است که اتصالات معنادار بین موجودیت ها از ویژگی های اصلی آن است. یکی از مهم ترین اتصالات معنادار در وب داده، اتصالات همانندی است که بین موجودیت های همانند ایجاد می شود. شناسایی و اتصال موجودیت هایی که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند، موجب می شود عامل ها ...

15 صفحه اول

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

full text

شناسایی کسره اضافه در متون فارسی برای استفاده در سیستم های تبدیل متن به گفتار

این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکر...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی ارومیه - دانشکده فنی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023